Home

Home

6.2 시각과 언어의 연결: 멀티모달 임베딩 (Multimodal Embeddings)

Home / 인공지능 (Artificial Intelligence, AI) / 제목: Embodied AI & Modern Control / Chapter 6. 오픈 보캐블러리와 시맨틱 이해 (Open-Vocabulary & Semantic Understanding) / 6.2 시각과 언어의 연결: 멀티모달 임베딩 (Multimodal Embeddings)

6.2 시각과 언어의 연결: 멀티모달 임베딩 (Multimodal Embeddings)

6.2 시각과 언어의 연결: 멀티모달 임베딩 (Multimodal Embeddings)
6.2.1 CLIP (Contrastive Language-Image Pre-training)의 원리: 이미지와 텍스트를 동일한 잠재 공간(Latent Space)에 매핑하기.
6.2.2 Contrastive Learning과 데이터 규모의 힘: 웹 스케일 데이터 학습이 가져온 일반화 성능과 강건성(Robustness).
6.2.3 로봇을 위한 경량화 및 미세 조정(Fine-tuning): 실시간 추론을 위한 Distillation 기법과 도메인 적응 전략.

Generated by Rust Site Gen